其他
追一技术分享 | NLG技术:文本生成技术多样化应用的探索之路
自然语言生成(NLG)技术的现状
任务形式
今天天气真好。正向 今天天气太难受了。负向
判断下列句子的感情:今天天气真好。正向
判断下列句子的感情:今天天气太难受了。负向
模型架构
模型规模
预训练任务
GPT:GPT纯粹就是无条件地“背书”,可以理解为Encoder的输入是空字符串,Decoder的输出是任意句子;
UniLM:在NLG部分,UniLM使用的是自然文本的上半段预测下半段来预训练;
BART:BART跟BERT一样,都是完形填空,只不过用Seq2Seq模型去做,Encoder输入带空的句子,Decoder输出原句子;
T5:T5算是BART的加强版,它将连续的多个[MASK]合并成了一个,并且Decoder只需要预测要填空的部分;
PEGASUS:PEGASUS主要是为摘要生成而设计的,它以最长公共子序列为指标,无监督地构建了一些伪摘要数据集来预训练。
追一科技NLG技术创新研究
NLG技术的探索与改进
Exposure Bias
50%的概率不做改变; 50%的概率把输入序列中30%的词替换掉,替换对象为原目标序列的任意一个词。
新型Copy机制
:代表该token是从原文中复制; :代表该token是从原文中复制,并且和前一位的token组成原文中的连续片段; :代表该token不是复制的
如果序列标签输出的是,则进行正常的token的预测; 如果序列标签输出的是,则在输出token的分布时,mask掉非原句中的token; 如果序列标签输出的是,则在输出token的分布时,mask掉不能与原句中对应部分组成n-gram的token;
Sparse Softmax
Conditional Layer Norm
探索NLG应用场景
自动摘要生成-2020“法研杯”夺冠
相似问生成
可控条件文本生成
数学表达式生成
看图说话
中国象棋
开源共享,推动中文NLP社区发展
首创BERT+UniLM
Seq2Seq式预训练
我们在这篇文章中介绍了自然语言生成(NLG)的技术现状以及追一科技在NLG技术上的相关研究与应用探索。在模型上,我们从RNN过度到以Transformer为模型结构的预训练式生成模型,并研究探索如何让生成模型更加可控,生成的内容更加通顺可读。在应用上,我们通过模型的可控性来拓展NLG的应用场景,探索其在相似问生成、感情迁移、文本摘要等具体场景上的能力。我们认为随着NLG技术的不断成熟进步,它将为NLP技术的应用带来更多的可能性,并且朝着实现通用型NLP模型前进。
延伸阅读
更 美 好 AI 世 界